今天主要著重在清理轉換後的數據,並進行驗證。
基因代號轉換後,我需要對結果進行清理和驗證,因為有些基因雖然有 Symbol ID,但其在 Ensembl 上並未被定義,具體原因這邊不討論;而今天的工作重點是檢查哪些基因未能成功轉換,並將這些未成功轉換的基因數據清理掉。同時還需要對成功轉換的結果進行驗證,以確保數據的完整性。
首先我會檢查數據中的缺失值,也就是未能成功轉換的基因會在 ensembl_gene_id
列中顯示為空值。這些數據需要被清理掉,以避免後續的處理出現錯誤。
# 清理沒有成功轉換為 Ensembl Gene ID 的基因
df.dropna(subset=['ensembl_gene_id'], inplace=True)
在上面這段 Code 中,我使用 dropna
函數來刪除 ensembl_gene_id
中存在空值的行。這樣做可以確保只保留成功轉換的基因數據,並清理掉那些無法轉換的基因。
接下來,需要檢查轉換結果的準確性,方式可以通過檢查 DataFrame 中的前幾行來確認轉換是否成功,並確保數據格式正確:
# 輸入想查看的前幾行數據
print(df.head())
head
函數允許快速查看 DataFrame 的前幾行數據,這樣就能夠確認基因 Symbol ID 和 Ensembl Gene ID 是否已經正確比對。
今天所做的數據清理和驗證對於後續的數據處理非常重要。只有在保證數據的完整性和正確性下,才能在後續的爬蟲和計算過程中避免不必要的錯誤,同時也為下一步的爬取基因位置訊息做好準備。